Maße der zentralen Tendenz und Streuung
Humboldt-Universität zu Berlin
Mi. den 06.12.2023
Heute werden wir lernen…
summarise() von dplyr benutzt.by Gruppe erstelltDie erforderliche Lektüre für dieses Thema sind:
Kap. 3, Abschnitte 3.4-3.9 (Descriptive statistics, models, and distributions) in Winter (2019) (online verfügbar für Studierende/Beschäftigte der HU Berlin über das HU Grimm Zentrum.
Abschnitt 4.5 (Groups) in Kap. 4 (Data Transformation) in Wickham et al. (2023).
Session > Restart R, um mit einer neuen Umgebung zu beginnen
Cmd/Ctrl+Strg+0groesse_geburtstag_ws2324.csv: ein leicht veränderter groesse_geburtstag-Datensatz von Winter Semester 2023/2024languageR_english.csv: komprimierte Version des english-Datensatzes aus dem languageR-Paketnrow(): liefert die Anzahl der Beobachtungen in einem Datensatz[1] 9
length(): die Anzahl der Beobachtungen in einem Vektor oder einer Variablen[1] 9
\[\begin{align} \mu &= \frac{Summe\;der\;Werte} {n} \label{eq-mean} \end{align}\]
sum() und length() verwenden, um den Mittelwert zu berechnen[1] 173.7778
mean() function.[1] 173.7778
mean() auch auf eine Variable in einem Datenrahmen anwenden, indem wir den Operator $ verwenden (datenrahmen$variable).[1] 173.6667
sort() verwenden und zählen, welches der mittlere Wert ist:[1] 163 164 167 167 170 171 182 189 190
median() verwenden[1] 170
max() und min(): gibt den höchsten und den niedrigsten Wert aus[1] 190
[1] 163
range() verwenden[1] 163 190
[1] 27
sd oder \(\sigma\))sd) = die Quadratwurzel (\(\sqrt{}\) oder sqrt() in R) der Summe der quadrierten Wertabweichungen vom Mittelwert (\((x - \mu)^2\)) geteilt durch die Anzahl der Beobachtungen minus 1 (\(n-1\))
\[\begin{align} \sigma & = \sqrt{\frac{(x_1-\mu)^2 + (x_2-\mu)^2 + ... + (x_N-\mu)^2}{N-1}} \label{eq-sd} \end{align}\]
sd() berechnen[1] 10.46157
\[\begin{align} \sigma_{heights} & = \sqrt{\frac{(height_1-\mu)^2 + (height_2-\mu)^2 + ... (heights_N-\mu)^2}{N-1}} \end{align}\]
\[\begin{align} \sigma_{values} & = \sqrt{\frac{(3-\mu)^2 + (5-\mu)^2 + (16-\mu)^2}{N-1}} \label{eq-sd1} \end{align}\]
\[\begin{align} \sigma_{values} & = \sqrt{\frac{(3-8)^2 + (5-8)^2 + (16-8)^2}{N-1}} \label{eq-sd2} \end{align}\]
\[\begin{align} \sigma_{values} & = \sqrt{\frac{(3-8)^2 + (5-8)^2 + (16-8)^2}{3-1}} \label{eq-sd3} \end{align}\]
\[\begin{align} \sigma_{values} & = \sqrt{\frac{(-5)^2 + (-3)^2 + (8)^2}{3-1}} \\ \label{eq-sd4} \\ & = \sqrt{\frac{25 + 9 + 64}{3-1}} \\ & = \sqrt{\frac{98}{2}} \\ & = \sqrt{49} \\ & = 7 \end{align}\]
dplyr aus dem tidyverse hat einige hilfreiche Funktionen, um zusammenfassende Statistiken zu erstellendf_eng-Datensatz verwenden, um diese dplyr-Verben kennenzulernendplyr::summarisesummarise() (dplyr) berechnet Zusammenfassungen von Daten
n() zum Beispiel liefert die Anzahl der Beobachtungen (nur wenn sie innerhalb von summarise() oder mutate() verwendet wird)# A tibble: 1 × 1
N
<int>
1 4568
rt_lexdec, in Millisekunden)# A tibble: 1 × 3
mean_lexdec sd_lexdec N
<dbl> <dbl> <int>
1 708. 115. 4568
Fehlende Werte
rt_naming hat einen fehlenden Wertmean() funktioniert nicht mit fehlenden Wertendrop_na() entfernen.by =.by = in summarise() berechnet unsere Berechnungen für Gruppen innerhalb einer kategorialen Variable# A tibble: 2 × 4
age_subject mean_lexdec sd_lexdec N
<chr> <dbl> <dbl> <int>
1 young 630. 69.1 2283
2 old 787. 96.2 2284
Verkettung (c())# A tibble: 4 × 5
age_subject word_category mean_lexdec sd_lexdec N
<chr> <chr> <dbl> <dbl> <int>
1 old N 790. 101. 1452
2 old V 780. 86.5 832
3 young N 633. 70.8 1451
4 young V 623. 65.7 832
| dataset | mean_x | mean_y |
|---|---|---|
| Dataset 1 | 9 | 7.5 |
| Dataset 2 | 9 | 7.5 |
| Dataset 3 | 9 | 7.5 |
| Dataset 4 | 9 | 7.5 |
| dataset | mean_x | mean_y | std_dev_x | std_dev_y | corr_x_y |
|---|---|---|---|---|---|
| away | 54.27 | 47.83 | 16.77 | 26.94 | -0.06 |
| bullseye | 54.27 | 47.83 | 16.77 | 26.94 | -0.07 |
| circle | 54.27 | 47.84 | 16.76 | 26.93 | -0.07 |
| dino | 54.26 | 47.83 | 16.77 | 26.94 | -0.06 |
| dots | 54.26 | 47.84 | 16.77 | 26.93 | -0.06 |
| h_lines | 54.26 | 47.83 | 16.77 | 26.94 | -0.06 |
| high_lines | 54.27 | 47.84 | 16.77 | 26.94 | -0.07 |
| slant_down | 54.27 | 47.84 | 16.77 | 26.94 | -0.07 |
| slant_up | 54.27 | 47.83 | 16.77 | 26.94 | -0.07 |
| star | 54.27 | 47.84 | 16.77 | 26.93 | -0.06 |
| v_lines | 54.27 | 47.84 | 16.77 | 26.94 | -0.07 |
| wide_lines | 54.27 | 47.83 | 16.77 | 26.94 | -0.07 |
| x_shape | 54.26 | 47.84 | 16.77 | 26.93 | -0.07 |
Abbildung 2: Plots of datasauRus dataset distributions
Heute haben wir gelernt…
summarise() von dplyr benutzt ✅.by Gruppe erstellt ✅Anhang 7: Deskriptive Statistik auf der Website des Kurses.
Erstellt mit R version 4.4.0 (2024-04-24) (Puppy Cup) und RStudioversion 2023.9.0.463 (Desert Sunflower).
R version 4.4.0 (2024-04-24)
Platform: aarch64-apple-darwin20
Running under: macOS Ventura 13.2.1
Matrix products: default
BLAS: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRblas.0.dylib
LAPACK: /Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/lib/libRlapack.dylib; LAPACK version 3.12.0
locale:
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
time zone: Europe/Berlin
tzcode source: internal
attached base packages:
[1] stats graphics grDevices datasets utils methods base
other attached packages:
[1] datasauRus_0.1.8 patchwork_1.2.0 janitor_2.2.0 here_1.0.1
[5] lubridate_1.9.3 forcats_1.0.0 stringr_1.5.1 dplyr_1.1.4
[9] purrr_1.0.2 readr_2.1.5 tidyr_1.3.1 tibble_3.2.1
[13] ggplot2_3.5.1 tidyverse_2.0.0
loaded via a namespace (and not attached):
[1] utf8_1.2.4 generics_0.1.3 renv_1.0.7 xml2_1.3.6
[5] lattice_0.22-6 stringi_1.8.3 hms_1.1.3 digest_0.6.35
[9] magrittr_2.0.3 evaluate_0.23 grid_4.4.0 timechange_0.3.0
[13] fastmap_1.1.1 Matrix_1.7-0 rprojroot_2.0.4 jsonlite_1.8.8
[17] mgcv_1.9-1 fansi_1.0.6 viridisLite_0.4.2 scales_1.3.0
[21] cli_3.6.2 rlang_1.1.3 crayon_1.5.2 splines_4.4.0
[25] bit64_4.0.5 munsell_0.5.1 withr_3.0.0 yaml_2.3.8
[29] parallel_4.4.0 tools_4.4.0 tzdb_0.4.0 colorspace_2.1-0
[33] pacman_0.5.1 kableExtra_1.4.0 vctrs_0.6.5 R6_2.5.1
[37] lifecycle_1.0.4 snakecase_0.11.1 bit_4.0.5 vroom_1.6.5
[41] pkgconfig_2.0.3 pillar_1.9.0 gtable_0.3.5 glue_1.7.0
[45] systemfonts_1.0.6 highr_0.10 xfun_0.43 tidyselect_1.2.1
[49] rstudioapi_0.16.0 knitr_1.46 farver_2.1.1 nlme_3.1-164
[53] htmltools_0.5.8.1 svglite_2.1.3 labeling_0.4.3 rmarkdown_2.26
[57] compiler_4.4.0
Woche 8 - Deskriptive Statistik